269 research outputs found
Application de techniques parcimonieuses et hiérarchiques en reconnaissance de la parole
Les systèmes de reconnaissance de la parole sont fondamentalement dérivés des domaines du traitement et de la modélisation statistique des signaux. Depuis quelques années, d'importantes innovations de domaines connexes comme le traitement d'image et les neurosciences computationnelles tardent toutefois à améliorer la performance des systèmes actuels de reconnaissance de parole. La revue de la littérature a suggéré qu'un système de reconnaissance vocale intégrant les aspects de hiérarchie, parcimonie et grandes dimensions joindrait les avantages de chacun. L'objectif général est de comprendre comment l'intégration de tous ces aspects permettrait d'améliorer la robustesse aux bruits additifs d'un système de reconnaissance de la parole. La base de données TI46 (mots isolés, faible-vocabulaire) est utilisée pour effectuer l'apprentissage non-supervisé et les tests de classification. Les différents bruits additifs proviennent de la base de données NOISEX-92, et permettent d'évaluer la robustesse en conditions de bruit réalistes. L'extraction de caractéristiques dans le système proposé est effectuée par des projections linéaires successives sur des bases, permettant de couvrir de plus en plus de contexte temporel et spectral. Diverses méthodes de seuillage permettent de produire une représentation multi-échelle, binaire et parcimonieuse de la parole. Au niveau du dictionnaire de bases, l'apprentissage non-supervisé permet sous certaines conditions l'obtention de bases qui reflètent des caractéristiques phonétiques et syllabiques de la parole, donc visant une représentation par objets d'un signal. L'algorithme d'analyse en composantes indépendantes (ICA) s'est démontré mieux adapté à extraire de telles bases, principalement à cause du critère de réduction de redondance. Les analyses théoriques et expérimentales ont montré comment la parcimonie peut contourner les problèmes de discrimination des distances et d'estimation des densités de probabilité dans des espaces à grandes dimensions. Il est observé qu'un espace de caractéristiques parcimonieux à grandes dimensions peut définir un espace de paramètres (p.ex. modèle statistique) de mêmes propriétés. Ceci réduit la disparité entre les représentations de l'étage d'extraction des caractéristiques et celles de l'étage de classification. De plus, l'étage d'extraction des caractéristiques peut favoriser une réduction de la complexité de l'étage de classification. Un simple classificateur linéaire peut venir compléter un modèle de Markov caché (HMM), joignant une capacité de discrimination accrue à la polyvalence d'une segmentation en états d'un signal. Les résultats montrent que l'architecture développée offr de meilleurs taux de reconnaissance en conditions propres et bruités comparativement à une architecture conventionnelle utilisant les coefficients cepstraux (MFCC) et une machine à vecteurs de support (SVM) comme classificateur discriminant. Contrairement aux techniques de codage de la parole où la transformation doit être inversible, la reconstruction n'est pas importante en reconnaissance de la parole. Cet aspect a justifié la possibilité de réduire considérablement la complexité des espaces de caractéristiques et de paramètres, sans toutefois diminuer le pouvoir de discrimination et la robustesse
Objets sonores : une représentation bio-inspirée, hiérarchique, parcimonieuse à très grandes dimensions utilisable en reconnaissance
L’accent est placé dans cet article sur la structure hiérarchique, l’aspect parcimonieux de la représentation
de l’information sonore, la très grande dimension des caractéristiques ainsi que sur l’indépendance des caractéristiques
permettant de définir les composantes des objets sonores. Les notions d’objet sonore et de
représentation neuronale sont d’abord introduites, puis illustrées avec une application en analyse de signaux
sonores variés : parole, musique et environnements naturels extérieurs. Finalement, un nouveau système de
reconnaissance automatique de parole est proposé. Celui-ci est comparé à un système statistique conventionnel.
Il montre très clairement que l’analyse par objets sonores introduit une grande polyvalence et robustesse
en reconnaissance de parole. Cette intégration des connaissances en neurosciences et traitement des signaux
acoustiques ouvre de nouvelles perspectives dans le domaine de la reconnaissance de signaux acoustiques.Abstract : The emphasis is put on the hierarchical structure, independence and sparseness aspects of auditory signal
representations in high-dimensional spaces, so as to define the components of auditory objects. The concept
of an auditory object and its neural representation is introduced. An illustrative application then follows,
consisting in the analysis of various auditory signals : speech, music and natural outdoor environments. A
new automatic speech recognition (ASR) system is then proposed and compared to a conventional statistical
system. The proposed system clearly shows that an object-based analysis introduces a great flexibility and
robustness for the task of speech recognition. The integration of knowledge from neuroscience and acoustic
signal processing brings new ways of thinking to the field of classification of acoustic signals
Modélisation de la structure et dynamique corticale avec application en apprentissage machine
L'objectif de ce projet de recherche est d'identifier les propriétés de la connectivité et de la dynamique du système visuel qui peuvent mener à des systèmes d'apprentissage machine stables et performants, lorsqu'implémentés par des méthodes de classification par réservoir de neurones à décharge. Un modèle complexe du système visuel est d'abord proposé selon des données anatomiques et neurophysiologiques tirées de la littérature.
La qualité de la modélisation structurelle et l'impact computationnel des caractéristiques de modélisation considérées sont ensuite étudiés.
Un mécanisme de régulation homéostatique du taux de décharge moyen et de la balance excitation-inhibition basé sur la plasticité synaptique dépendante du temps de décharge est aussi proposé.
L'effet des caractéristiques de modélisation sur les performances de classification de bases de données synthétiques est finalement évalué, montrant l'interaction complexe de ces dernières sur la dynamique neuronale.Le cerveau est un système biologique complexe avec de multiples caractéristiques structurelles
(p. ex. neurones, synapses) et dynamiques (p. ex. décharges neuronales, plasticité
synaptique). Il est encore aujourd’hui difficile de différentier les caractéristiques qui contribuent
réellement à sa fonction du traitement de l’information sensorielle, comparativement
aux caractéristiques qui soutiennent plutôt la régulation et le contrôle du métabolisme.
Le but de cette thèse est d’identifier les caractéristiques de modélisation précises du système
visuel dans le cerveau qui peuvent mener à des systèmes d’apprentissage machine
bioinspirés stables et performants. Au niveau méthodologique, l’évaluation de l’impact des caractéristiques de modélisation
structurelle sur la reproduction de la connectivité corticale est d’abord réalisée, suivie de
l’impact computationnel des caractéristiques de modélisation dynamique. Pour assurer la
stabilité de l’activité neuronale, un mécanisme de régulation homéostatique pour les synapses
excitatrices et inhibitrices basé sur la plasticité dépendante du temps de décharge
multiplicative est ensuite proposé. Finalement, l’application à une tâche de classification
est réalisée en adaptant le modèle proposé en un système d’apprentissage machine basé
sur un réservoir de neurones à décharge. Des bases de données synthétiques permettant
de valider les performances de classification de façon objective pour différentes formes de
représentation de l’information (spatiale, temporelle ou spatiotemporelle) sont aussi proposées.
L’effet des caractéristiques de modélisation est finalement évalué par des analyses
statistiques rigoureuses sur la performance de classification de ces bases de données. Les résultats montrent que certaines caractéristiques de modélisation structurelle, comme
la considération de grappes synaptiques pour modéliser les projections apicales, affectent
le nombre optimal de neurones et de synapses requis dans le modèle pour bien reproduire
la connectivité corticale. Il est aussi observé que certaines caractéristiques de modélisation
dynamique impliquent des facteurs computationnels limitants comme la génération
de nombres aléatoires et l’évaluation de la fonction exponentielle. Au niveau applicatif,
certaines caractéristiques ont montré un effet statistiquement significatif et bénéfique sur
les performances de reconnaissance pour au moins une des bases de données. Il s’agit de
la distribution réaliste des synapses, des contraintes synaptiques, du facteur pour le type
d’interaction postsynaptique et du nombre variable de sites de libération. Certaines caractéristiques
de modélisation comme la plasticité à court terme et la connectivité synaptique
proximale et distale ont montré un effet significatif néfaste sur les performances de classification.
Plusieurs caractéristiques de modélisation (p. ex. transmission probabiliste) n’ont
aucun effet significatif, mais montrent plutôt que la méthode de classification par réservoir
de neurones à décharge est robuste par rapport à la dynamique et à la variabilité
introduite par ces dernières. En perspective, ceci permet de mieux comprendre l’impact et
l’interaction des caractéristiques de modélisation sur la dynamique neuronale
HoME: a Household Multimodal Environment
We introduce HoME: a Household Multimodal Environment for artificial agents
to learn from vision, audio, semantics, physics, and interaction with objects
and other agents, all within a realistic context. HoME integrates over 45,000
diverse 3D house layouts based on the SUNCG dataset, a scale which may
facilitate learning, generalization, and transfer. HoME is an open-source,
OpenAI Gym-compatible platform extensible to tasks in reinforcement learning,
language grounding, sound-based navigation, robotics, multi-agent learning, and
more. We hope HoME better enables artificial agents to learn as humans do: in
an interactive, multimodal, and richly contextualized setting.Comment: Presented at NIPS 2017's Visually-Grounded Interaction and Language
Worksho
Highly charged ions in Penning traps, a new tool for resolving low lying isomeric states
The use of highly charged ions increases the precision and resolving power,
in particular for short-lived species produced at on-line radio-isotope beam
facilities, achievable with Penning trap mass spectrometers. This increase in
resolving power provides a new and unique access to resolving low-lying
long-lived ( ms) nuclear isomers. Recently, the keV
(determined from -ray spectroscopy) isomeric state in Rb has
been resolved from the ground state, in a charge state of with the TITAN
Penning trap at the TRIUMF-ISAC facility. The excitation energy of the isomer
was measured to be keV above the ground state. The extracted
masses for both the ground and isomeric states, and their difference, agree
with the AME2003 and Nuclear Data Sheet values. This proof of principle
measurement demonstrates the feasibility of using Penning trap mass
spectrometers coupled to charge breeders to study nuclear isomers and opens a
new route for isomer searches.Comment: 8 pages, 6 figure
- …